建模空间关系对于识别人类行为,尤其是当人类与物体相互作用时,而多个物体随着时间的推移会随着时间的推移而出现多个物体。大多数现有的行动识别模型专注于学习场景的整体视觉线索,而是无视内容的内容细粒度,可以通过学习人对象关系和互动来捕获。在本文中,我们通过利用当地和全球背景的互动来学习人对象关系。因此,我们提出了全球局部相互作用蒸馏网(GLIDN),通过空间和时间通过知识蒸馏来学习人和对象相互作用,以进行细粒度的现场理解。 Glidn将人和对象编码为Graph节点,并通过图注意网络了解本地和全球关系。本地上下文图通过在特定时间步骤中捕获它们的共同发生来了解帧级别的人类和对象之间的关系。全局关系图是基于人类和对象交互的视频级构建的,识别它们在视频序列中的长期关系。更重要的是,我们研究了如何将这些图表的知识如何蒸馏到它们的对应部分,以改善人对象相互作用(Hoi)识别。通过在两个数据集上进行全面的实验,我们评估我们的模型,包括Charades和CAD-120数据集。我们已经实现了比基线和对应方法更好的结果。
translated by 谷歌翻译